Statistik och dataanalys I

F10: Stickprov och populationer, observationsstudier och experiment

Valentin Zulj

Vad har vi gjort hittills?

Vi har gått igenom regressionsmodeller, och metoder för att utvärdera en modell på testdata
Anledningen till att vi vill utvärdera modeller på testdata är att vi vill undersöka om den förklarar världen omkring oss
Mer konkret vill vi veta om modellen förklarar ett mer generellt samband mellan variablerna, eller om den bara råkat hitta ett samband i träningsdata

När vi utgår ifrån ett begränsat datamaterial, och extrapolerar till en mer generell population, utövar vi statistisk inferens
Inferens blir ett viktigt inslag i del 2 av den här kursen, och vi ska börja lägga grunden för det redan idag

Vad vi ska göra nu?

Idag ska vi
- Prata om vad skiljer deskriptiv statistik (som vi har sysslat med hittils) från inferens
- Introducera begrepp som populationer, populationsparametrar, och bias
- Prata om slumpmässiga urval, bias, och statistikor
- Diskutera skillnader mellan experimentella studier och observationsstudier

Deskriptiv statistik och inferens

En bild från föreläsning 2

Deskriptiv statistik: Beskriva våra data på ett meningsfullt sätt

Inferens: Använda våra data för att dra slutsatser om världen utanför

Inferens

Vi går ut och frågar folk på stan om de tycker att regeringen gör ett bra jobb
Med hjälp av svaren vi får kan vi lätt beräkna hur stor andel i våra data som tycker si eller så,

\[\text{Andel positiva} = \cfrac{\text{Antal positiva respondenter}}{\text{Totalt antal respondenter}}\]

Troligtvis är vi dock inte så intresserade av just personerna vi frågar, utan vi vill veta något om hela befolkningen tycker
Åsikterna hos personerna vi frågar är bara intressanta om vi tror att de är representativa för befolkningen

Populationer

I statistik kallar vi den grupp som vi vill dra slutsatser om för en population

Exempel på populationer
- Om vi vill ta reda på hur stor andel av befolkningen som tycker att regeringen gör ett bra jobb, så är Sveriges befolkning vår population
- Om vi vill veta hur många högskolepoäng en genomsnittlig student på SU har, är populationen alla studenter vid SU
- Om vi vill veta genomsnittslönen för en nyutexaminerad statistiker, är populationen alla nyutexaminerade statistiker

Populationer

Det är viktigt vi specificera vilken som är vår population

När vi pratar om Sveriges befolkning: menar vi bara medborgare, eller alla som bor här? Inkluderar vi bara myndiga, eller även personer under 18 år?
När vi pratar om alla studenter på SU: syftar vi enbart på heltidsstudenter, eller räknar vi också in någon som tar en enstaka distanskurs på deltid?
Svaren på våra frågor kan bli olika, beroende på hur vi avgränsar populationen!
Det finns inget rätt svar på frågorna, men vi måste fatta ett beslut om vilka som ingår i populationen för att kunna genomföra studien på ett korrekt sätt

Stickprov

Vi har på den här kursen pratat om dataset med observationer
Vanligtvis är de data vi använder när vi gör inferens stickprov (sample), som är en delmängd av någon given population
Med hjälp av ett stickprov vill vi dra slutsatser om hela den population som intresserar oss

Exempel på stickprov
- Om vår population är hela Sveriges befolkning, kan vårt stickprov bestå av 1000 personer som slumpvis valts ut ur befolkningsregistret
- Om vi vill veta hur inkomster fördelar sig i Sverige kan vårt stickprov bestå av 1000 inkomstuppgifter som vi begär ut från Skatteverket
- Om vi vill veta hur bilars vikt påverkar deras bränsleförbrukning, kan vårt stickprov bestå av 32 bilar som någon har testat åt oss

Inferens

När vi talar om ett medelvärde i våra data kan vi ange ett exakt värde
Om 410 av 1000 tillfrågade tycker att en regering gör ett bra jobb, så är andelen i våra data exakt 41 procent

När vi uttalar oss om hela befolkningen (dvs vår population) kan vi inte vara lika exakta, eftersom vi inte har mätt åsikten hos hela befolkningen
Det vi kan säga är att andelen av befolkningen med viss säkerhet, eller med en viss konfidens, ligger inom ett visst intervall (se pinnar i toppen av staplarna)

Inferens

Att mäta en egenskap hos en population är svårt
Tabellen (från CNN) visar förtoendet för Joe Biden i slutet av Juli 2023
Mätningarna är gjorda i princip samtidigt, men ger ändå olika resultat
Skillnaden mellan 44% och 38% är stor! Varför så olika resultat?

Två felkällor

Det finns två huvudsakliga felkällor när vi drar slutsatser om en population med hjälp av ett stickprov:
- Bias (även känt som systematiska fel)
- Slumpmässiga variationer

Ett stickprov med bias är insamlat på ett sätt som systematisk snedvrider resultatet – någon som kan komma på ett exempel?
De slumpmässiga variationerna är oundvikliga när vi tar ett stickprov

När vi ser t.ex. en opinionsundersökning, kan vi utgå ifrån att den i någon mån påverkas av både bias och slumpmässiga variationer
Detta gäller oavsett hur välgjord undersökningen är, och är troligtvis inte avsiktligt

Bias – Exempel 1

Den som samlar in data är ofta omedveten om att stickprovet har ett bias
Exempel på bias De Veaux et al (2021), sid 352
- En tidning ville mäta sympatier inför presidentvalet i USA 1936
- Använde ett stickprov med personer som dragits slumpmässigt ur telefonkatalogen
- Vid denna tid saknade många ekonomiska förutsättningar att ha en telefon, och fanns därför inte med i telefonkatalogen
- De kom inte med i stickprovet, och mätningens resultat blev snedvridet

Bias – Exempel 2

En statistikstudent vill undersöka hur många timmar i veckan en heltidsstudent på SU lägger på sina studier
Samlar in data med hjälp av en enkät, som 50 andra studenter på samma kurs besvarar
Någon som kan tänka på en källa till bias?

Kan det vara så att staistikstudenter pluggar mer (eller mindre) än studenter som läser andra ämnen?
I så fall är stickprovet inte representativt för alla studenter på SU
Undersökningen kan dock fortfarande vara värdefull, om vi använder den som ett mått på hur mycket statistikstudenter på SU pluggar

Bias

Ett sätt att försöka undvika bias är att göra ett slumpurval från vår målpopulation
Om vi gör ett slumpurval från population kan vi förvänta oss att stickprovet är någorlunda representativt

Men ett slumpurval är ingen garanti för att stickprovet är representativt
- De som slumpmässigt valde personer ur telefonkatalogen trodde förmodligen att deras stickprov skulle bli representativt
- Anledningen till icke-representativitet var att vissa individer i målpopulationen hade 0% chans att komma med i stickprovet

Slumpmässiga variationer

Även stickprov som är helt utan bias kommer att påverkas av slumpen
Om vi tar flera olika stickprov kommer resultaten att variera mellan stickproven

Exempel på slumpmässiga variationer
- Ett opinionsinstitut mäter andelen av befolkningen som sympatiserar med olika partier – två undersökningar med en månads mellanrum
- Resultaten kommer fördligen skilja sig åt mellan undersökningarna, åtminstone en aning, även om opinionen i befolkningen är exakt likadan
- Detta beror på att personerna som ingår i undersökningen är slumpmässigt utvalda, och byts ut mellan undersökningarna

Slumpvisa variationer

Figur 10.1 i Deveaux et al (2021) visar viktfördelningen för alla nyfödda år 1998 i USA, där vi har \(N=\) 3 940 552

Slumpvisa variationer

Här ser vi ett antal stickprov från fördelningen på förra bilden
Överst: n = 100, Mitten: n = 250, Nederst: n = 1000

Stickprovets storlek

Opinionsmätningar har ofta ungefär 1000 deltagare, men det kan variera från några hundra till flera tusen
Men: hur stort måste stickprovet vara för att vara representativt?

Det beror på hur stora felmarginaler vi accepterar
Ju större stickprov desto mindre felmarginaler
Alternativt uttryckt: ju mer information vi har, desto mindre är vår osäkerhet

Viktigt: Populationens storlek avgör inte hur stort stickprovet måste vara!
- Bara för att USA:s befolkning är mycket större än Islands, betyder det inte att vi måste ta större stickprov när vi mäter opinion i USA

Simple random sampling (obundet slumpmässig urval)

Ett vanlig metod för att välja ut vilka observationer som ska ingå i ett stickprov är simple random sampling (SRS)
SRS betyder att varje möjligt stickprov har samma sannolikhet att bli valt
Det är inte tillräckligt att alla individer har samma sannolikhet för inklusion, utan det måste gälla alla möjliga stickprov

Simple random sampling – Exempel

Vi har 5 personer i en liten population: \(\{x_1, x_2, x_3, x_4, x_5\}\), och vi vill dra ett stickprov som inkluderar 2 av dessa observationer
Följande stickprov är möjliga, och ska ha samma sannolikhet att bli valda

\[\begin{align*} & \{x_1, x_2\}, \{x_1, x_3\}, \{x_1, x_4\}, \{x_1, x_5\}, \\ & \{x_2, x_3\}, \{x_2, x_4\}, \{x_2, x_5\}, \\ & \{x_3, x_4\}, \{x_3, x_5\} , \{x_4, x_5\} \end{align*}\]

Under kriteriet att alla individer ska ha samma sannlokhet skulle det räcka att bara välja bland dessa stickprov \[\{x_1, x_2\}, \{x_2, x_3\}, \{x_3, x_4\}, \{x_4, x_5\}, \{x_1, x_5\}\]
Men dessa är inte representativa för populationen – alla kombinationer finns inte med!

Populationsparametrar

Populationsparametrar är nyckeltal som beskriver något aspekt av en population
Ofta kan vi inte mäta eller observera värdet på en parameter, och vår uppgift blir då att skatta/estimera värdet

Exempel på parametrar
- Om vi betraktar Sveriges befolkning som en population, är andelen som tycker att regeringen gör ett bra jobb en populationsparameter
- Om vi betraktar alla älgar som en population, är den genomsnittliga vikten hos en älg en populationsparameter
- På samma sätt är standardavvikelsen för älgarnas viktfördelning en populationsparameter

Statistikor

När vi skattar en populationsparameter gör vi det med hjälp av en statistika (statistic)
En statistika är något som vi kan beräkna med hjälp av våra data

Exempel på statistikor
- Andelen i våra data som tycker att regeringen gör ett bra jobb är en statistika
- Denna statistika kan användas som en skattning av hur stor del av befolkningen som tycker att regeringen gör ett bra jobb
- Medelvikten hos ett antal älgar vi valt ut och vägt är en annan statistika
- Denna statistika kan användas för att uppskatta medelvikten för alla älgar

Parametrar och statistikor

Ofta använder vi grekiska bokstäver för att symbolisera populationsparametrar
Tabellen nedan, ur De Veaux et al (2021), listar uttrycken för ett antal vanliga statistika och deras korresponderande populationsparametrar

Observationsstuder och experiment

Motiverande exempel

I en amerikansk studie fann forskare att studenter som spelade musikinstrument hade bättre betyg än andra studenter
Efter studien kom krav på att fler elever borde få musiklektioner
Utifrån det vi har lärt oss hittills på den här kursen, kan vi utgå från att fler elever kommer att lyckas bättre om fler får lära sig att spela ett instrument?

Nej! Ett observerat samband är inte nödvädigtvis kausalt!
Det kan finnas andra faktorer som gör att vissa elever är både mer benägna att spela ett instrument, och mer benägna att få höga betyg
Kan elever som har det lättare i skolan ha mer energi över till att lära sig spela musik?
Kan elever som spelar musik ha mer engagerade föräldrar, som också stöttar inlärning?

Observationsstudier

Studien som fann att elever som spelade instrument hade bättre betyg var en observationsstudie
I en observationsstudie jämför forskare olika grupper, utan att själva kunna styra vilka som ska ingå i de grupper som jämförs

Vi kan tänka oss att barn som väljer att lära sig spela instrument kan ha annorlunda egenskaper/förutsättningar än barn som inte vill spela musik
Det kan alltså finnas en lång rad olika faktorer som skiljer grupperna åt, och vi måste ta hänsyn till dessa om vi ska få en rättvisande jämförelse
Annars kan effekten av att spela musik delvis blandas ihop med t.ex. effekten av att ha föräldrar som kan engagera sig i sina barns fritid

Experiment

Antag nu att vi verkligen vill veta om musiklektioner bidrar till bättre betyg
Vi kan då inte förlita oss på en observationsstudie, utan vi måste i så fall anordna ett experiment

Ett experiment går ut på att mäta hur en viss faktor påverkar en responsvariabel
För att isolera just den faktor vi är intressrade av, försöker vi skapa jämförelsegrupper som är så lika som möjligt i övrigt

Om grupperna verkligen är lika i övrigt kan vi dra slutsatsen att skillnader mellan grupperna faktiskt beror på den faktor vi studerar
Det finns i så fall inga bakomliggande faktorer som förvränger våra resultat

Skillnad mellan observationsstuder och experiment

Notera skillnaden mellan de två exempel vi tagit upp
I det första exemplet använde forskarna jämförelsegrupper som de inte kunde kontrollera, utan barnen valde själva om de ville spela instrument
Forskarna kunde inte veta om det fanns bakomliggande faktorer, som påverkar både barnens val och deras benägenhet att få högre betyg
Detta är typiskt för en observationsstudie

I ett experiment har forskarna själva kontroll över hur grupperna skapas
De kan då se till att den enda skillnaden mellan grupperna är att det spelas instrument i den ena, men inte i den andra

Det blir så mycket lättare att isolera effekten av att spela musik

Observationsstudier och experiment

Anta att vi vill göra ett experiment för att se om sömnbrist påverkar läsförståelsen
Vi vill testa om individer som sovit fyra timmar senaste dygnet presterar sämre på ett läsförstående-test än vad individer som sovit åtta timmar gör

Kontrollfråga: Vilken är vår faktor och vilken är vår responsvariabel?

Faktor: antal timmars sömn senaste dygnet
Responsvariabel: Testresultat på test i läsförståelse

Observationsstudier och experiment

I ett experiment bör deltagarna fördelas slumpvis mellan grupperna
Vad skulle kunna hända om vi lät deltagarna välja “sömngrupp” själva?

Deltagare med vissa egenskaper skulle kunna välja att sova mindre, och deltagare med andra egenskaper välja att sova mer
Grupperna skulle inte bli likdana i alla andra aspekter utöver just sömn

I verkligheten går det inte alltid att genomföra experiment
Varken elever eller föräldrar skulle nog acceptera att visa elever tvingas spela instrument, samtidigt som andra totalförbjuds från det
Därför är observationsstudier i vissa sammanhang det enda alternativet
I dessa fall måste vi vara försiktiga med vilka slutsatser som faktiskt går att dra

Credits

Dessa slides skapades av Karl Sigfrid för kursen Statistik och Dataanalys I och har uppdaterats av Oskar Gustafsson och Valentin Zulj